🤔Как принять решение: удалять выбросы или оставлять их
Всё зависит от природы выбросов — являются ли они реальными редкими случаями или ошибками в данных.
🔹 Если выброс отражает действительно существующее, но редкое наблюдение (например, необычно высокая цена на товар, которая действительно была на рынке), то удаление такого значения может привести к модели, игнорирующей важные, хоть и редкие, сценарии.
🔹 Если же выброс возник из-за ошибки ввода, дублирования или другого рода артефакта — его можно удалить без особого риска.
✅Как принять обоснованное решение
Постройте три версии модели: 1. С выбросами. 2. Без выбросов. 3. С обработанными выбросами (например, винзоризацией или логарифмической трансформацией).
Сравните их по кросс-валидации: точности, стабильности, интерпретируемости. Выберите подход, который даёт наилучший баланс между производительностью и объяснимостью.
📌Контекст имеет значение
В медицине, например, выброс может указывать на критическое состояние пациента — и его ни в коем случае нельзя игнорировать. А в пользовательских логах выброс может быть признаком бот-активности.
🤔Как принять решение: удалять выбросы или оставлять их
Всё зависит от природы выбросов — являются ли они реальными редкими случаями или ошибками в данных.
🔹 Если выброс отражает действительно существующее, но редкое наблюдение (например, необычно высокая цена на товар, которая действительно была на рынке), то удаление такого значения может привести к модели, игнорирующей важные, хоть и редкие, сценарии.
🔹 Если же выброс возник из-за ошибки ввода, дублирования или другого рода артефакта — его можно удалить без особого риска.
✅Как принять обоснованное решение
Постройте три версии модели: 1. С выбросами. 2. Без выбросов. 3. С обработанными выбросами (например, винзоризацией или логарифмической трансформацией).
Сравните их по кросс-валидации: точности, стабильности, интерпретируемости. Выберите подход, который даёт наилучший баланс между производительностью и объяснимостью.
📌Контекст имеет значение
В медицине, например, выброс может указывать на критическое состояние пациента — и его ни в коем случае нельзя игнорировать. А в пользовательских логах выброс может быть признаком бот-активности.
Importantly, that investor viewpoint is not new. It cycles in when conditions are right (and vice versa). It also brings the ineffective warnings of an overpriced market with it.Looking toward a good 2022 stock market, there is no apparent reason to expect these issues to change.
A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. “While doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.
Библиотека собеса по Data Science | вопросы с собеседований from ar